观点 | 如何突破大数据发展的瓶颈
大数据是新资源、新技术和新理念的综合体。从资源视角来看,大数据是新资源,体现了一种全新的资源观。摩尔定律仍然有效,计算存储和传输数据的能力在以指数速度增长,分布式计算、存储和数据技术的革新不断涌现,互联网企业对“数据废气”(Data Exhaust)的挖掘利用大获成功,引发全社会开始重新审视“数据废气”的价值,开始把数据当作一种独特的战略资源对待。
从技术视角看,大数据代表了新一代数据管理技术。传统的数据管理与分析技术以结构化数据为对象、在小数据集上进行分析、以集中式架构为主,成本高昂。与“贵族化”的数据分析技术相比,源于互联网的,面向多源异构数据、在超大规模数据集上进行分析、以分布式架构为主的新一代数据管理技术与开源软件潮流叠加,在大幅提高处理效率的同时(数据分析从T+1到T+0甚至实时),成百倍地降低了数据存储和管理成本。底层技术的变革释放了上层应用的创新活力。
从理念的视角看,大数据提供了一种全新的思维角度。大数据的应用,赋予了“实事求是”新的内涵,其一是“数据驱动”,即经营管理决策可以自下而上地由数据来驱动,甚至像量化股票交易、实时竞价广告等场景中那样,可以由机器根据数据直接决策;其二是“数据闭环”,观察互联网行业大数据案例,它们往往能够构造起包括数据采集、建模分析、效果评估到反馈修正各个环节在内的完整“数据闭环”,从而能够不断地自我升级,螺旋上升。
大数据本身既能形成新兴产业,也能推动其他产业发展和社会进步,战略重要性毋庸置疑。从狭义看,围绕大数据采集、存储、管理和挖掘,正在逐渐形成一个小的产业生态(狭义大 数据产业)。2015年,全球的大数据产业规模约为200~300亿美元。据中国信息通信研究院调查[1],2015年我国大数据市场规模达到115.9亿元,增速达38%,预计2016-2018年还将维持40%左右的高速增长。
身处大数据热潮中,既要充分认识大数据的潜力,积极把握技术进步带来的机遇,也要认清大数据的局限性,警惕大数据万能论。一些被广泛传播的经典案例现在被证明是子虚乌有的,比如,啤酒与尿布的故事实际上是Teradata公司的工程师Thomas Blischok在1992年杜撰 的[3],从来没发生过;而Netflix号称用大数据分析帮助自制剧《纸牌屋》取得成功,而实际上是把大数据作为公关活动的噱头[4]。笔者认为,至少有以下几点值得思考:
第一,大数据尚难对人的行为做出精确预测。在大数据是否能准确预测人类行为的问题上,还存在重大分歧。《黑天鹅》指出人类的行为不可预测[5],而《爆发》一书则根据对以往历史经验的总结,指出人类行为93%可预测[6]。麻省理工学院教授罗伯特·莱格伯恩(Roberto Rigobon)称,虽然华尔街一直重视数据分析,但基于海量数据分析的对冲基金在全球都是失败的[7]。“对于人和事件,如果放到越大的空间和时间范围,则是越可以精确预测的。如果放到越小的空间和时间范围,则是越不可以精确预测的。例如,我们几乎可以在100%的程度上预测一个人在24小时的时间范围内会吃饭;但若精确到某一分钟,则几乎不可能预测准确。”[8]大数据无法预测人类行为,归根结底还是因为人具有“自由意志”,人会根据预测结果(如下个月的股票价格、明天的交通拥堵情况)改变自身行为,从而使得预测失效。
第二,大数据相关关系不能替代因果关系。舍恩伯格在《大数据时代》[9]中说:“我们没有必要非得知道现象背后的原因,而是要让数据自己发声”,“相关关系能够帮助我们更好地了解这个世界”。追寻相关关系和因果关系,是人类思维的两种重要方式,而用大数据进行预测往往依靠相关性,也就是说,很多情况下知道“是什么”即可,不必知道“为什么”。相关关系的运用在互联网推荐、精准广告等方面得到了实际应用。然而,在很多时候,如疾病诊断、工厂故障分析等场景下,需要根据确定的(或置信度非常高的)结论来决策,仅凭相关关系是远远不够的。换言之,大数据中的相关关系应用,需要区分场景,有时候数据无法自己说话,需要追本 溯源。
第三,大数据来源不均衡会让数据“说谎”。有人说数据不会撒谎。实际上,如果忽视数据来源的不均衡性,数据分析结果就会“骗人”。中国互联网络信息中心2015年的统计数据显示,我国网民城乡分布严重不均,农村网民虽然迅猛增长,但仍不及城市新增网民数量的1/10。社交网络用户的性别分布也同样有很严重的倾斜,腾讯公司2015年年初的报告显示,微信用户的男女比例为1.8:1,男性用户约占了64.3%,而女性用户则只有35.7%。如果利用网络大数据进行民意调查,却不把样本分布的不均衡性考虑进去,就可能使得某些群体未得到充分代表,而某些群体因使用率高,其意见或特征被过分放大。这种不均匀的数据来源会导致分析结果存在偏见和盲区。
以上从理论层面做了探讨。而从大数据产业实际发展来看,我国还存在数据开放、技术创新、制度建设、区域协同等多方面的瓶颈需要突破。
开放政府数据,并带头用好大数据技术,是政府部门支持大数据发展最直接的举措。经过多年发展,我国政府信息化建设取得了举世瞩目的成就。自1993年启动金桥工程、金关工程和金卡工程以来,“两网一站四库十二金”相继建成,政务信息化水平不断提升;面向公众服务的政府网站群也已经具有较大规模,截至2015年上半年,全国各级政府网站总数达到8.6万个,其中地方8.3万个,国务院部门3000多个。政务履职和公众服务过程中积累了丰富的数据资源,是十分宝贵的资源。
数据开放共享一直是政务信息化建设的理想目标。以前,系统建设烟囱式的建设模式,加上数据权责利的管理制度没有建立起来,导致横向来看在政府内部的数据孤岛普遍存在,纵向来看数据对外开放更是缺乏技术与制度基础。现在,在全社会推进大数据的应用,数据的多源融合是先决条件,政府数据的共享开放已经成为不得不做的事情。恰好在最近几年,云计算不断成熟,为统一的政务信息平台建设提供了新工具,为数据共享融合提供了技术便利。
李克强总理强调:“首先要把政府大数据的建设事情办好,给社会一个好的示范。”用政府大数据的应用倒逼政务信息化升级,推动政务信息化建设从烟囱式、封闭式、集中式的模式,转向平台式、开放式、分布式的模式。国务院《促进大数据发展行动纲要》中,把这项工作放在首位,提出了统筹基础设施、整合应用平台、推动数据共享、推进数据开放等基础性工作,还提出要基于融合的数据,加强宏观调控科学化、政府治理精准化、商事服务便捷化等应用创新。从自身做起,体现了政府推动大数据的决心。
然而从各地推进情况看,政府数据的开放共享在实际操作中的阻力不小,动力不足。改变目前政府部门不愿开放、不敢开放、不能开放的现状,长远之计,是要自上而下,由中央建立一套完善的数据开放共享机制,明确开放共享的数据目录、技术标准,以及平台建设思路,部委和地方去落实。短期来看,还需要结合渐进路线,逐步推进。例如在政府数据开放方面,可先从已经开放的数据如何便利化应用入手。
我国很多政府网站都已经开放了比较丰富的数据资源。笔者曾经对工业和信息化部miit.gov.cn域名内已开放的数据进行了研究和梳理(未包含国防科工局、国家烟草专卖局、国家航天局和国家原子能机构,以及各地方主管部门和25个下属机构),发现已经开放的数据包含资质审核、行业统计、项目审批、产品信息、标准规范和科技成果等6大类数据集,共计约60万条数据,已经具备相当规模。
大数据资源与技术,就好比工业时代的燃料与引擎,不仅自成产业,还能够驱动其他产业更好发展。当前,开源模式迅猛发展,技术“民主化”潮流势不可挡,数据技术的轨道正在从集中式向分布式切换,传统产业的格局有望重塑。在这样的大变轨时期,一方面我国领先的互联网企业——IT制造企业与国际先进水平的差距不断缩小,甚至在一些方向上达到了前所未有的接近程度。另一方面,我国正在实施《中国制造2025》战略,农业和服务业正在加速转型,有数不清的问题等待着用大数据去解决,对大数据技术产品的需求空间也十分巨大。
技术产业加速变轨、国内产业快速崛起和庞大的市场内生需求三者叠加,使得我国具备在大数据领域实现跨越发展的条件。在之前的几次信息化浪潮中,国内产业没能实现弯道超车,天时、地利、人和没有同时具备。然而在当前的时间点上,我们同时具备了产业支撑能力和巨大应用空间的优势,如果能够将两方面优势结合起来,形成良性互动格局,就能够实现跨越发展。《促进大数据发展行动纲要》提出“推动产业创新发展,培育新兴业态,助力经济转型”的任务,体现了谋划跨越发展的前瞻性。
我国大数据产业发展的一个重要目标是打造自主可控的产业体系。当前,从大数据技术与产品的供给侧看,我国虽然在局部技术上实现了单点突破,但大数据领域系统性、平台级技术创新仍不多见,供应商面临着紧跟技术趋势、精准对接用户需求的压力。从大数据技术与产品的需求侧看,对金融、电信、工业、医疗、政府等行业用户来说,正面临着如何规划技术路线、如何选择商用产品、如何构建和运维大数据平台等问题。
当数据这种新的资源越来越受重视时,与数据相关的权利义务界定也就显得越来越重要。小到个人,大到企业和国家,都是大数据的利益相关方。
对个人来说,大数据的应用对隐私保护提出了巨大挑战,技术面前个人越来越渺小和脆弱。要严格保护大数据应用中的个人信息,就需要探索形成大数据环境下数据收集、开放、交换、应用等环节的规则,明确大数据应用相关各方的个人信息保护义务和责任。
对企业来说,数据资产的所有权、使用权还是个模糊地带,急需建立数据产权保护制度,明确各类市场主体所积累的信息资产所有权归属,建立规范化管理和使用机制,保护信息所有者、信息主体及公众的合法利益。
对国家来说,数据空间成为主权的新领域。需要研究跨境数据流动分级、分类管理制度,涉及国家秘密、国家安全以及经济安全的数据进行管理,确保大数据时代的国家安全。
李克强总理指出,“政府既要‘扶持’,为大数据产业创造一个健康发展的环境,又要‘引导’、‘规范’,保障信息安全”,并提出“要完善产业标准体系,依法依规打击数据滥用、侵犯隐私等行为,让各类市场主体公平分享大数据带来的技术、制度和创新活力”。《促进大数据发展行动纲要》明确了“强化安全保障,提高管理水平,促进健康发展”的任务,以及“加快法规制度建设”的措施,从法律法规、管理制度和技术手段等多层次保障大数据安全。
国务院《促进大数据发展行动纲要》中明确提出,要“加强中央与地方协调,引导地方各级政府结合自身条件合理定位、科学谋划,将大数据发展纳入本地区经济社会和城镇化发展规划,制定出台促进大数据产业发展的政策措施,突出区域特色和分工,抓好措施落实,实现科学有序发展”。2016年4月13日召开的促进大数据发展部际联席会议第一次会议,进一步明确了地方大数据发展的重点方向,加快综合试验区建设,鼓励地方开展制度创新探索,推动数据创新应用,破解大数据发展难题。
国务院《促进大数据发展行动纲要》出台后,各地抢抓发展机遇,谋划大数据发展蓝图,不少地方已经在顶层设计、体制机制创新、业态探索和基础设施建设等方面取得了明显进展。据中国信息通信研究院统计,目前已经有23个省市出台了74个大数据相关的指导意见或规划,广东、贵州、辽宁沈阳、四川成都市地方政府还成立了大数据相关的专门机构;北京、贵州、陕西、湖北、河北、上海、浙江等地成立大数据交易所或交易中心;内蒙古、贵州等资源禀赋较好地区的超大规模绿色数据中心建设相继建成,形成了良好的发展局面。
需要特别关注的是,大部分省市的大数据规划都有大手笔的数据中心建设计划。需要注意的是,大数据绝不等于“大数据中心”,大数据发展并不一定需要大面积的产业园区。因此,地方发展大数据的重点,不是建产业园、建数据中心,而是要充分依托已有设施资源,把现有的资源利用好,要坚决杜绝盲目新建数据中心,避免造成资源空间的浪费。地方需要差异化发展,应该把大数据的发展重心放在因地制宜地促进应用创新上,放在打造完善的发展环境上,让市场在大数据发展要素配置上起决定作用。
文章来源:《世界电信》
权威发布 | 《工业互联网体系架构(版本1.0)》发布,下载地址在这里……